1. 复习上课内容

2. 回答以下理论问题

1. 请写一下TF-IDF的计算公式
   TF:term frequency
      tf(t,d)=count(t,d)
      tf(t,d)=log10(count(t,d)+1)
   IDF:inverse document frequency
      idf(t)=log10(N/df(t))
   w(t,d)=tf(t,d)*idf(t)
    

2. LDA算法的基本假设是什么？
   一个文本的主题服从某种分布；每一个主题下的词服从一个概率分布
   
3. 在TextRank算法中构建图的权重是如何得到的？
   用两个词的相似性cos作为权重

4. 什么是命名实体识别？ 有什么应用场景？
   从一句话中识别出人名，地名，组织名，日期时间，这就是命名实体识别的一个例子。
   人名，地名等这些被识别的目标就是命名实体。
   命名实体还可以是很多其它有意义的目标，比如产品，公司，专有名词等等。
   应用：关系抽取、事件抽取、知识图谱、机器翻译、问答系统

5. NLP主要有哪几类任务 ？
   分类任务；生成任务

3. 实践题

3.1 手动实现TextRank算法 (在新闻数据中随机提取100条新闻训练词向量和做做法测试）

提示：
确定窗口，建立图链接。 
通过词向量相似度确定图上边的权重
根据公式实现算法迭代(d=0.85)

3.2 使用词向量和k-means的方法寻找关键词

提示：
1.使用3.1训练好的词向量
2.可使用sklearn等机器学习库

3.3 提取新闻人物里的对话。(使用以上提取小数据即可）

提示：
1.寻找预料里具有表示说的意思。
2.使用语法分析提取句子结构。
3.检测谓语是否有表示说的意思。
